Modelos de equações estruturais

Aula 2 — Análise Fatorial Exploratória

Bruno Gondim Toledo

Estatístico — CONRE 1ª Região Nº 11477

Motivação e contexto

Retomando a ideia de maldição da dimensionalidade…

Quando existem um número expressivo de variáveis correlacionadas, é possível que elas estejam medindo a mesma coisa.
Para resolver esta questão, lançaremos mão do conceito de variáveis latentes
Num contexto em que se busca medir Gestão de documentos e Gestão de conhecimento, podem existir fatores observáveis que meçam conjuntamente e indiretamente estas características de interesse.

Na regressão, modelamos \(Y\) em função de \(\boldsymbol{X}\) (\(Y \sim \boldsymbol{X}\))

Em análise fatorial (AF), iremos modelar \(\boldsymbol{X} \sim F\), onde \(F\) é latente.

O modelo clássico

\[\boldsymbol{x-\mu = \Phi f + \epsilon}\] tal que:

\(x\) é vetor de variáveis observadas;
\(\Phi\) é a matriz de cargas fatoriais (pesos);
\(f\) é vetor de fatores latentes;
\(\epsilon\) é vetor de erros específicos.

Intuição e pressupostos:

As cargas fatoriais seriam pesos, ou seja, a importância que cada construto tem na determinação do valor de cada variáveis, enquanto os erros específicos seriam a parte da variável que não é explicada pelos fatores comuns, podendo ser interpretada como erro de medida.

Pressupostos (clássicos) do modelo

Seguindo o paradigma da identificabilidade,

\(E(\boldsymbol{f}) = 0\) e \(E(\boldsymbol{\epsilon}) = 0\);
\(Cov(\boldsymbol{f}) = \Phi = I_m\) (fatores comuns não correlacionados);
\(Cov(\epsilon) = \Psi = diag\{\psi_1,...,\psi_p\}\)
\(Cov(\boldsymbol{f}, \boldsymbol{\epsilon}) = 0\).

Desta forma,

\[\Sigma = \Phi \Phi^T + \Psi\]

Mais detalhes e demonstrações aqui

Interpretações e glossário pertinente

Podemos então decompor a variância de cada \(\boldsymbol{X}_i\), tal que:

\[Var(X_i) = \phi_{i1}^2+...+\phi_{im}^2 + \psi_i,\]

onde as parcelas \(\phi_{ij}\) advém das cargas fatoriais, e \(\psi_i\) do erro específico.

Desta forma, podemos já adotar o glossário usual da literatura:

Carga fatorial:

é a correlação entre a variável observada e a variável latente.

Comunalidade:

Variância explicada pelos fatores, definida por \(h_i^2=\sum_{j=1}^m\phi^2_{ij}\)

Epecificidade

Parte da variância de \(x_i\) que não é explicada pelos fatores comuns \(\Phi\), dado simplesmente por: \(\psi_i = 1 - h_i^2\) (variável padronizada, com variância 1).

Estimação e número de fatores

Esta seção será breve, pois não é nosso objetivo específico neste projeto.

Como o cliente já tem um modelo SEM “pronto” (ou seja, o número de fatores já está definido), não entraremos em detalhes. Caso precisem, consultem os materiais: 1 e 2, ou livros: ARTES, R.; BARROSO, L. P. Métodos multivariados de análise estatística. [S.l.]: São Paulo: Blucher, 2023; JOHNSON, R. A.; WICHERN, D. W. Applied Multivariate Statistical Analysis. [S.l.]: 6. ed.[S.l.]:Prentice Hall, 2007.
Note que esta parte é fundamental em projetos que necessitem de análise fatorial exploratória, portanto não podem ser ignorada em outro projeto com esta outra natureza.
Métodos de estimação também são explicados nos materiais, mas por hora vamos nos contentar com as implementações disponíveis em R, nos pacotes psych, factoextra e lavaan.

Rotações (lembram do queijo?)

As rotações visam facilitar a interpretação dos fatores extraídos, buscando uma estrutura mais simples e clara.
Em estatística, costumamos utilizar a rotação varimax, que assume grande parte dos pressupostos.
Em geral, em ciências humanas, a rotação mais adotada é a promax, mais flexível nos casos em que os fatores tem correlação.
Algumas rotações possíveis amplamente implementadas nos pacotes de AF são varimax, quartimax, oblimin e varimax.
Notem que em geral existem duas implementações no R para a promax, em geral sob os alias promax e Promax. A diferença entre elas é que a promax (minúsculo) realiza uma normalização específica (Kaiser) antes de aplicar a rotação, que é o procedimento aparentemente adotado pelo SPSS, por vezes mais utilizado que o R no contexto de ciências humanas. É pertinente adotar este procedimento em alguns casos, para garantir que os resultados sejam comparáveis com os eventualmente adotados pelo pesquisador. Consulte a documentação dos pacotes nestes casos para ter certeza.

Por fim…

Portanto, análise fatorial exploratória é um modelo genuinamente estatístico; e não apenas uma transformação.
Em AFE, o modelo é descoberto. Em AFC, o modelo é testado.
Na próxima aula, trataremos de AFC, onde iremos impor uma estrutura em \(\Phi\).
Desta forma, poderemos dizer que AFC é uma AFE restrita

Por hoje é só!

Dúvidas?

Feedbacks?